GTX680のグラフィック・GPGPU性能を調べる
2012年3月27日 10:30 pm | カテゴリー: PCHardware | コメントを残すタグ: Cypress, Fermi, GCN, GF110, GK104, gpgpu, GPU, GTX680, HD7970, Kepler, Tahiti, VLIW4
デザインが悪くて読みにくいったらありゃしないので,PDFも置いておきます.
<情報の正確さは保証しません.間違っていたらコメントをください.> 検証は一切していません.GTX680もHD7970も持っていません.その上私はプロのプログラマでもありません.それを理解したうえで読んでください.
—
3月23日,NVIDIAから新しいGPU「GeForce GTX680」が発表されました.GTX680は初めての6xx世代GPUで,GK104アーキテクチャとして初めてのGPUです.
そこで,GK104アーキテクチャが以前のGF1xxアーキテクチャやRadeonのGraphics Core Next(以下GCN)とどう違うか,グラフィックスやGPGPUにどんな影響があるか,情報収集しました.
ゲームに関してはGTX680が優位っぽいというのは下の情報源から見てとれますので,ここでは個々の機能やGPGPU,特にプログラマ視点に重点を置いて調べます.
—
【主な情報源まとめ】
AMD/NVIDIA公式サイト
http://www.geforce.com/Active/en_US/en_US/pdf/GeForce-GTX-680-Whitepaper-FINAL.pdf(PDF注意)
http://game.watch.impress.co.jp/docs/series/3dcg/20120322_520598.html
http://pc.watch.impress.co.jp/docs/column/kaigai/20120322_520640.html
http://pc.watch.impress.co.jp/docs/news/20120322_520654.html
http://www.4gamer.net/games/120/G012093/20120320002/
http://www.4gamer.net/games/120/G012093/20120321043/
http://plusd.itmedia.co.jp/pcuser/articles/1203/22/news142.html
http://ascii.jp/elem/000/000/680/680281/
http://techreport.com/articles.x/22653/6
http://news.mynavi.jp/special/2012/kepler/004.html
http://news.mynavi.jp/special/2012/tahiti/index.html
http://www.ixbt.com/video3/gk104-part2.shtml
http://www.techpowerup.com/reviews/NVIDIA/GeForce_GTX_680/
http://www.ixbt.com/video3/gk104-part2.shtml
http://pc.watch.impress.co.jp/docs/column/kaigai/20111222_501138.html
—
【基本スペック】
GK104はGF114の後継と見られているようなので,GTX560Tiも載せておきます.
情報源によって若干誤差があります.
製品 |
GTX680 |
GTX580 |
GTX560Ti |
HD7970 |
HD6970 |
メーカ |
NVIDIA |
AMD |
|||
発売 |
2012/3 |
2010/11 |
2011/2 |
2012/1 |
2010/12 |
開発コード |
GK104 |
GF110 |
GF114 |
Tahiti |
Cayman |
コアアーキテクチャ |
Kepler |
Fermi |
Fermi |
GCN |
VLIW4 |
製造プロセス |
TSMC 28nm HP |
TSMC 40nm Bulk |
TSMC 40nm Bulk |
TSMC 28nm HP |
TSMC 40nm Bulk |
トランジスタ(億個) |
35.4 |
30 |
19.5 |
43 |
26.4 |
ダイ面積(㎡) |
294 |
512 |
332 |
365 |
389 |
Direct3D |
11.1 |
11.0 |
11.0 |
11.1 |
11.0 |
OpenGL |
4.2 |
4.2 |
4.2 |
4.2 |
4.2 |
コア数 |
1536 |
512 |
384 |
2048 |
1536 |
分岐粒度 |
32 |
32 |
32 |
64 |
64 |
クロック(MHz) |
1006 |
1544/772 |
1644/822 |
925 |
880 |
ブースト(MHz) |
1058 |
– |
– |
– |
– |
単精度 (TFLOPS) |
3.090 |
1.581 |
1.263 |
3.789 |
2.703 |
倍精度 (TFLOPS)† |
0.129(独自に算出) |
0.791(0.198) |
0.631(0.158) |
0.947 |
0.683 |
メモリバス幅(bit) |
256 |
384 |
256 |
384 |
256 |
メモリ転送速度(Gbps, GHz) |
6.008, 1.502 |
4.008, 1.002 |
4.008/1.002 |
5.5, 1.375 |
5.5, 1.375 |
メモリ転送幅(GB/s) |
192.26 |
192.38 |
128.3 |
264 |
176 |
メモリの種類 |
GDDR5 |
GDDR5 |
GDDR5 |
GDDR5 |
GDDR5 |
メモリ容量(GB) |
2.0 |
1.5 |
2.0 |
3.0 |
2.0 |
テクスチャユニット |
128 |
64 |
64 |
128 |
96 |
ピークテクスチャフィルレート(GTex/s) |
128.8 |
49.4 |
52.5 |
118※ |
85※ |
FP16テクスチャフィルレート(GTex/s) |
128.8 |
49.4 |
52.5 |
59※ |
43※ |
ROP |
32 |
48 |
32 |
32 |
32 |
ピクセルフィルレート(GPix/s)‡ |
32※ |
37※ |
29※ |
30※ |
28※ |
ラスタライズポリゴン数(GTri/s) |
4.024※ |
3.088※ |
1.800※ |
1.850※ |
1.780※ |
深度ステンシルOP |
– |
– |
– |
128 |
128 |
共有キャッシュ(kB) |
512 |
768 |
512 |
768 |
512(read only) |
動画再生支援 |
PV5? |
PV4 |
PV4 |
名称不明,4K対応 |
UVD3 |
PCIe Gen |
3.0(現時点では2.0) |
2.0 |
2.0 |
3.0 |
2.1 |
TDP/消費電力(W) |
195 |
244 |
170 |
260 |
250 |
アイドル電力(W) |
– |
– |
– |
13 |
20 |
スリープ電力(W) |
– |
– |
– |
3 |
– |
電源コネクタ |
6+6 |
8+6 |
6+6 |
8+6 |
8+6 |
†括弧内はGeForceの制限(Teslaの1/4)を考慮したFLOPS値
‡ピーク性能(テクスチャフォーマットにより変化)
※GPU-Zの表示,あるいはネットによる情報
—
ざっくりとまとめると,
演算速度
HD7970 >> GTX680 > HD6970 >>> GTX580
メモリ帯域
HD7970 >> GTX680 = GTX580 >>> GTX580
ピークテクスチャフィル()
GTX680 > HD7970 >>> HD 6970 >>> GTX 580
ピクセルフィル
GTX580 >> GTX680 > HD 7970 > HD 6970
ラスタライズポリゴン数
GTX680 >> GTX580 >>> HD 7970 >= HD 6970
となります.
GPGPU性能はHD7970の方が上,グラフィック性能はGTX680になるという予想が立てられます.実際,ベンチマークがそれを証明しています.
—
なお,GK104はCUDAのCompute Capabilityが3.0に上がっています.
—
【イチオシ機能別比較】
比較は同じメーカーの旧機種を対象としており,GTX680とHD7970の比較ではありません.
GTX680
・KeplerアーキテクチャによるGPC/SM(X)構造の改良とスケジューラの効率化
・ホットクロック廃止
・テセレータ改善
・L2キャッシュの帯域引き上げとアトミック演算の高速化
・GPU Boost
・標準4画面出力
・Bindless Textures
・Adaptive VSync
・TXAA
・NVENC
HD 7970
・GCNアーキテクチャによるVLIW廃止とキャッシュ・ベクタ+スカラユニット構成
・テセレータ改善
・Dual DMA engines
・PowerTune Technology
・ZeroCore Technology
・CPU側メモリとのキャッシュの一貫性保持
・Partially Resident Textures
・標準6画面出力とEyefinity 2.0
・UVDの4Kサイズ対応とQuarter SAD
—
【シェアードメモリ・キャッシュ】
面倒くさいので後で書く
—
【命令別スループット】
CUDA_C_Programming_Guide.pdf(CUDA Toolkit 4.2 同梱)
http://developer.amd.com/afds/assets/presentations/2620_final.pdf(PDF注意)
http://pc.watch.impress.co.jp/docs/column/kaigai/20120201_508791.html
1スレッドあたりの理論スループットの逆数を示します.1ならば,1クロックに1命令処理できることになります(最も好ましい).2ならば,1クロックに0.5命令処理できることになります.なお,CPUでは1クロックに2命令以上処理できることがありますが,GPUでは起きません.これはコアの数え方がCPUとGPUで異なるからです.
Fは浮動小数,Iは整数を表します.
アーキテクチャ |
GK104 |
GF1x0 |
GF1xx (除GF1x0) |
GCN |
VLIW4 |
F32加算・乗算 |
1 |
1 |
1 |
1 |
1 |
F32積和 |
1 |
1 |
1 |
1 |
1 |
F32 SFU |
6 |
8 |
6 |
? |
4※ |
F64加算 |
24 |
2 |
12 |
? |
2 |
F64乗算・積和 |
24 |
2 |
12 |
4 |
4 |
I32加算 |
8/7 |
1 |
1 |
1 |
1 |
I32乗算・積和 |
6 |
2 |
3 |
4 |
4 |
I32 SAD |
6 |
2 |
3 |
? |
? |
I32シフト |
24 |
2 |
3 |
? |
? |
I32比較 |
24 |
2 |
3 |
? |
? |
論理演算 |
24/17 |
1 |
1 |
1 |
? |
I24加算・乗算 |
複数命令 |
複数命令 |
複数命令 |
1 |
1 |
I24積和 |
複数命令 |
複数命令 |
複数命令 |
? |
1 |
I24 SFU |
複数命令 |
複数命令 |
複数命令 |
1 |
1 |
I64加算 |
? |
? |
? |
? |
4 |
型変換 |
24 |
2 |
3 |
? |
? |
※4ALUのうち3ALUを占有
注意:RadeonはVLIW4以降,ALUとSFUのリソースを共有しています.GeForceはG80以降,ALUとSFUが別になっています.
GK104が大変なことになっています.ゲームで多用されるF32以外ガン無視です.ここまでGPGPUを捨てるとは思いませんでした.Fermiから電力効率が大きく向上したのは,28nm以外にも整数や倍精度浮動小数を捨てたことが大きな理由だと言えます.
といっても,ピーク演算性能はGTX580の2倍なので,スループットが半分になってもなんとか使えます.問題はI32シフトとI32比較,型変換です.ここまで遅いと,いくらなんでもコア数やクロックではカバーできません.
GCNのスループットは不明な部分が多いですが,AMD曰く,コアにはそれほど手を入れていないそうなので,VLIW4とそれほど変わらないと思います.
—
【3DMark Vantage Color/Texture】
ROPとテクスチャ性能を調べます.
http://techreport.com/articles.x/22653/6
製品 |
GTX680 |
HD7970 |
Color Fill(GPix/s) |
13.2 |
13.2 |
Texture Fill(GTex/s) |
102 |
107 |
INT8 Texture Filtering(GTex/s) |
105 |
103 |
FP16 Texture Filtering(GTex/s) |
97 |
59 |
ほとんど差がありません.ピクセルフィル自体あまり速くないし,テクスチャのフェッチもキャッシュが効くので,メモリ帯域の影響が小さいようです.
明確に違うのはFP16のTexture Filteringで,HD7970はINT8の半分強の性能しか出ませんが,これは基本スペックの値と合致します.
HDRテクスチャを多用したゲームではGTX680の方が速くなりそうです.
【TessMark】
OpenGL 4.xを使って,テセレータの性能を調べます.
ソースは上記と同じ
製品 |
GTX680 |
HD7970 |
x16 |
65430 |
41508 |
x32 |
32432 |
15566 |
x64 |
12125 |
4342 |
GTX680がHD7970よりおよそ2倍のスコアになっています.
FermiのPolyMorph Engineが持つテセレーション性能も相当強烈でしたが,KeplerのPolyMorph Engine 2.0もそれ以上に強烈です.
HD7970は,Fermiと同程度の性能を持っているようです.
ただ,図を見るとHD7970よりHD7870の方が,スコアが上になってしまっています.おそらく,HD7970は925MHz,HD7870は1GHzだからだと考えられます.逆に言えば,HD7970とHD7870のテセレータは同等であると言えます.確かにブロック図では,7970も7870もテセレータは2つです.
—
【3DMark Vantage Feature Test】
Direct3D 10世代のベンチマークから,6種類のテストを行ってGPUの特性を調べます.
http://news.mynavi.jp/special/2012/kepler/001.html
http://news.mynavi.jp/special/2012/tahiti/002.html
http://techreport.com/articles.x/22653/7
(Feature Testの詳細)http://www.4gamer.net/games/044/G004413/20081128018/
FT1 “Texture Fill” 微小テクスチャのアルファブレンド上書き(テクスチャフィル,ROP)
FT2 “Color Fill” FP16バッファへのアルファブレンド上書き(ROP)
FT3 “Parallax Occlusion Mapping” セルフシャドウ付き視差遮蔽マッピング(テクスチャフェッチ,長いシェーダ,動的分岐)
FT4 “GPU Cloth” ばねシミュレーション(ストリームアウト,物理シミュ)
FT5 “GPU Particles” パーティクル(短いシェーダ,ジオメトリシェーダ)
FT6 “Perlin Noize” パーリンノイズ(長いシェーダ,ROP)
大原記事・THE TECH REPORTともにほぼ同一の結果なので,マイナビ大原記事のfps値を借ります.
製品 |
GTX680 |
HD7970 |
FT1 |
101 |
116 |
FT2 |
13 |
13 |
FT3 |
87 |
133 |
FT4 |
82 |
60 |
FT5 |
110 |
90 |
FT6 |
182 |
268 |
FT1はHD7970の方が少し速いですが,ピクセルフィルもテクスチャフィルも両機種の差はなかったので,アルファブレンド性能の違いでしょうか.アルファブレンドは元のテクスチャを一旦読み込まないといけないので,そこでメモリ帯域の差が影響したのかもしれません.
FT2はほぼ同じです.FP16テクスチャはHD7970では半速なので,ほぼ同じfpsになった原因は,やはりアルファブレンドによるメモリ帯域不足かもしれません.GPU-Zなどでメモリ負荷状況が示してあれば原因がはっきりしそうなのですが….
FT3はHD7970がGTX680の約1.5倍速いです. FT6もそうですが,長くて複雑なシェーダはHD7970と相性が良いようです.HD7970はVLIW4を捨ててGPGPUを強化しており,一方でGTX680はスケジューラを簡素化しているので,複雑なシェーダほどHD7970の方が速くなるのはあり得る結果です.
FT4はGTX680…よりもGTX580の速さ(81fps)が目を引きますが,はっきりした原因は分かりません.HD7970もHD6970(48fps)と2割しか速くなっていません.
FT5もHD7970よりGTX680の方が速いので,VLIW4もGCNも短いシェーダ&多数のスレッドにあまり強くない(スレッドレベル並列性に弱く,命令レベル並列性に強い)アーキテクチャなのかもしれません.
まとめると,GTX680はアルファブレンドが若干弱く,長いシェーダではHD7970より遅い,HD7970は短いシェーダに弱い,という点が注意すべきポイントになりそうです.
—
【DirectX SDK Sample】
おそらくJune 2010版のDirect3D 11のサンプルのfpsを測ったものです.
http://www.ixbt.com/video3/gk104-part2.shtml(ロシア語)
製品 |
GTX680 |
HD7970 |
HDR Tone Mapping CS |
752 |
852 |
N-Body Gravity |
520 |
359 |
Detail Tessellation (Bump) |
1297 |
1702 |
Detail Tessellation (Parallax Occlusion) |
388 |
557 |
Detail Tessellation (Tessellator) |
929 |
927 |
PN Triangles factor 1 |
3530 |
3417 |
PN Triangles factor 5 |
2742 |
2246 |
PN Triangles factor 9 |
1627 |
889 |
PN Triangles factor 19 |
571 |
162 |
Water LOD 1 |
75.6 |
96.2 |
Water LOD 25 |
64.5 |
32.6 |
Water LOD 50 |
52.9 |
15.4 |
Water LOD 100 |
35.7 |
6.7 |
FP16が半速にならないGTX680なのにHDRが遅いということは,やはりメモリが原因でしょうか.もしかすると,型変換がやたら遅くなってしまったことも影響しているかもしれません.
N-BodyはGPU Particleと似た処理なので,結果もFT5と似ています.パーティクルをばら撒くのにGTX680は適しているようです.GTX680もHD7970も,一世代前の製品に比べてピーク性能比だけ速くなっているように見えます.
バンプマップは,GTX580とGTX680の差がありません.シェーダ負荷がかなり低いので,GTX580の高いピクセルフィルレートが影響したのかもしれません.そもそも,一世代前の`GPUでさえ1000fpsを超えるような軽いシェーダで比較しても意味がありません.
視差遮蔽マッピングはFT3と同じ傾向です(当たり前ですが).
テセレータを使うと,GTX680とHD7970の差がなくなります.
PNトライアングルもWaterもテセレータのベンチですので,TessMarkから推測できる範囲の結果になっています.
—
【Sandra 2012】
http://news.mynavi.jp/special/2012/kepler/004.html
http://news.mynavi.jp/special/2012/tahiti/005.html
http://www.tomshardware.com/reviews/geforce-gtx-680-review-benchmark,3161-14.html
GPGPU性能を測ります.汎用演算,暗号化,メモリ帯域の3種類があります.かなりややこしい結果になっています.
初めに一番わかりやすいメモリ帯域を見てみます.
CUDAはOpenCL似た結果になっているので,省略します.単位はGB/sです.
InternalはVRAMの帯域,System->Device/Device->SystemはPCIeの転送速度を計測しています.
製品 |
GTX680 |
HD7970 |
OpenCL Internal |
145 |
186 |
OpenCL System->Device |
5.68 |
10.5 |
OpenCL Device->System |
6.17 |
11.7 |
DirectCompute Internal |
137 |
200 |
DirectCompute System->Device |
4.27 |
9.00 |
DirectCompute Device->System |
5.40 |
5.85 |
InternalはGTX680もHD7970もピークの8割前後になっています.HD7970は384bitなので,GTX680より速いのは自然です.
HD7970はPCIe Gen3.0で動作しているので,System->Device/Device->SystemがGTX680の2倍近く速いです.ただし,PCIe Gen3.0に対応していないマザーボードならば,GTX680と同程度の速度になりますし,GX680のPCIe Gen3.0対応ドライバが公開されたら優位性はなくなります(今でもレジストリを弄ればGen3.0化できるようですが).なお,この項目にかかわらず,ベンチマークによってPCIe Gen2.xだったり3.0だったりするので,計測環境には注意が必要です.
ところで,HD7970はTeslaのように双方向通信に対応しているかどうかはこのベンチマークでは分かりません.Dual DMAということで,対応していそうな気はします.
HD7970のDirectComputeでの転送がやたら遅いのは原因不明です.
—
次に汎用演算(小数)を見ます.単位はTFLOPSです.物理モデルを使ったレンダリングを行うベンチマークだそうです.RadeonはCUDAに対応していないので,Not Availableとしています.
製品 |
GTX680 |
HD7970 |
OpenCL Float |
1.14 |
1.65 |
DirectCompute Float |
1.30 |
1.24 |
CUDA Float |
1.00 |
NA |
OpenCL Double |
0.0738 |
0.434 |
DirectCompute Double |
0.0446 |
0.257 |
CUDA Double |
0.0787 |
NA |
明らかにGTX680はGF1x0より倍精度演算速度が落とされています.GTX580のさらに半速になっています.これはCUDA C Programming Guideの記述と合致します.
単精度の比較は,ピークのコア性能もメモリ帯域もHD7970の方が上になるのは自然です.
2つの大原記事の結果を結合してみます.HD7970はGen3の方を採用しています.CLがOpenCL,DCがDirectComputeです.
製品 |
GTX580 |
GTX680 |
HD6970 |
HD7970 |
CL Float |
0.65 |
1.14(x1.7) |
0.759 |
1.65(x2.2) |
CL Double |
0.107 |
0.0738(x0.689) |
0.253 |
0.434(x1.71) |
DC Float |
0.732 |
1.30(x1.78) |
0.943 |
1.24(x1.31) |
DC Double |
0.0657 |
0.0446(x0.678) |
0.158 |
0.257(x1.63) |
CUDA Float |
0.66 |
1.00(x1.52) |
NA |
NA |
CUDA Double |
0.128 |
0.0787(x0.615) |
NA |
NA |
GX680は分かりやすい結果になっています.スペック上,単精度ではGTX680はGTX580のちょうど2倍の性能差があるはずですが,メモリ帯域がネックなのか,スレッドスケジューリングが弱くなったか,ドライバの質が悪いのか,5~8割程度にとどまっています.倍精度は,クロック差を考えれば,GK104はGF114の半速になっていると言い切って良いでしょう.
HD7970の倍精度は,HD6970より7割速くなっています.理論上は4割のはずですが,GCNによりキャッシュ・メモリシステムが大きく進化したので,それが影響したのではないでしょうか.
問題はHD7970の単精度ですが,Tahitiの大原記事は少しおかしいです.HD6970のOpenCL Internal Bandwidthが12.74GB/sしか出ていません.HD7970の15倍も遅いということになり,明らかに不自然です.ドライバかSandra2012に何か問題がありそうなので,ここではとりあえず置いておきます. GTX680とHD7970を比較すると,OpenCLとDirectComputeで結果が逆転していますが,コア性能だけ考えればHD7970の方が速くなるはずです.
—
最後に暗号化(整数)ですが,言うまでもなくHD7970の圧勝です.単位はGB/sです.
製品 |
GTX680 |
HD7970 |
CL AES256 Encrypt |
10.7 |
23.6 |
CL AES256 Decrypt |
11.0 |
23.6 |
CL SHA256 |
4.53 |
15.2 |
DC AES256 Encrypt |
6.65 |
29.8 |
DC AES256 Decrypt |
6.42 |
29.8 |
DC SHA256 |
9.87 |
21.2 |
GTX680は整数演算が捨てられています.SHA256はGTX580の方が速いほどです.
結果がBandwidthで示されているので,PCIeの速度が影響している(CPUに計算結果を返している)可能性があります.HD6970とも5倍前後差があり,コア性能だけでここまで変わるとは(有り得なくもないですが)考えにくいです.
それにしても,これもOpenCLとDirectComputeでかなり結果に差があるのが不思議です.
—
【LuxMark 2.0】
レイトレーシングベンチです.
http://news.mynavi.jp/special/2012/kepler/006.html
http://www.tomshardware.com/reviews/geforce-gtx-680-review-benchmark,3161-15.html
製品 |
GTX680 |
HD7970 |
Room |
282 |
1044 |
Sala |
617 |
1745 |
LuxBall HDR |
3982 |
15436 |
GTX680はGTX580より遅くなっています.メモリ帯域も大きな原因だとは思いますが,それだけとは思えません.
大原氏の指摘するように,倍精度で演算しているのかもしれないとも思いましたが,ソース(http://src.luxrender.net/luxrays/file/ed66596ed0a8/src/kernels)を見ると,倍精度は使っていませんでした.むしろ,整数演算が多めのように見えます.
—
【DirectCompute&OpenCL Benchmark v0.45b】
GeForceではOpenCLの方が,RadeonではDirectComputeの方が速くなりがちの,よくわからないベンチマークです.
http://news.mynavi.jp/special/2012/kepler/005.html
製品 |
GTX680 |
HD7970 |
OpenCL |
9832.8 |
7875.9 |
DirectCompute |
9078.7 |
1148175.5 |
HD7970のDirectComputeは絶対おかしいので,別のサイトも調べてみます.
http://www.oc.com.tw/article/1201/readarticle.asp?id=7194(台湾サイト)によると,HD7970のDirectComputeは約8000だそうです.なぜかHD6970より遅くなってしまっています.http://dpk.itc.ua/content/35308(ロシア語)によると,8528だそうです.CPUによっても変わるので,8000~8500程度が本来の値ということになりそうです.
GTX680がHD7970より若干速い結果になりました.また,どちらのGPUもOpenCLとDirectComputeの差が小さくなりました.
—
【ComputeMark】
3次元流体シミュレーション(3Dテクスチャ版+2Dテクスチャ配列版),マンデルブロ集合(スカラ型+ベクタ型),ジュリア集合へのレイトレースといったGPGPU性能を計測します.
http://prohardver.hu/teszt/nvidia_geforce_gtx_680_teszt/computemark_luxmark_konvertalas.html(ハンガリーサイト?)
製品 |
GTX680 |
HD7970 |
1280×800 合計スコア |
2403 |
2652 |
合計スコアで何か分かるわけでもないですが,GTX680はHD7970とHD7950の間に埋まっています.
http://www.oc.com.tw/article/1201/readarticle.asp?id=7194(台湾サイト)
比較対象がないのでHD7970とHD6970の比較のURLだけ貼っておきます(上と同じですが).
—
【温度とGPUブースト】
http://www.techpowerup.com/reviews/NVIDIA/GeForce_GTX_680/30.html
温度が上がるとGPUブーストが抑えられるのは既報の通りですが,どれぐらい下げられるのかを示したのが”Templature”の項です.
なんと95度でもブーストクロックの1058MHzで動いています.
よほどのことがない限り,ベースクロックを下回ることはなさそうです.
—
【Media Expresso 6.5】
http://www.tomshardware.com/reviews/geforce-gtx-680-review-benchmark,3161-16.html
動画のエンコード速度です.1920×1080のMPEG2/H.264動画をiPad2用H.264動画に変換します.
GTX680は,MPEG2→H.264ではGTX580より3割遅くなっていますが,HD7970の3/4,HD6970の半分の速度で終わります.
また,H.264→H.264はGTX680がぶっちぎっています.GTX580やHD7970の半分です.
ところで,H.264同士の変換がMPEG2ソースより速いとは知りませんでした.
http://www.guru3d.com/article/geforce-gtx-680-review/6
Intel Quick Sync Videoとの比較です.1080iのH.264ソースです.ちょうど2600K(HD3000)がGTX680とGTX580の中間に入っています.
GeForceについては上の情報源と矛盾しない結果に見えます.
http://techreport.com/articles.x/22653/3
一方こちらはGTX680と2600Kが同じ速度になっています.ソースのフォーマットは不明です.
—
【まとめ】
スペックシートから明確になった点は,
・GK104は固定機能重視,GPGPUは後回し
スペックシートで明確になった点を除き,はっきり言えることは,
・FP16を除いてGTX680とHD7970のピクセル・テクスチャフィルは同性能
・テセレータはGTX680の方が速く,ポリゴンの数が増えるほど差が広がる.
・アルファブレンドはHD7970の方が速い
・長くて複雑なシェーダはHD7970が,パーティクルはGTX680が有利
・GK104に整数演算や倍精度浮動小数点数演算を期待するな
一方疑問点は,
・一部のGPGPUベンチマークでPCIeの帯域が大きく影響している?
・GPU ClothでGTX580/680の差がない理由
・OpenCL/DirectComputeの結果に差がある理由
「GPUって素直じゃないなぁ…」と改めて思いました.
—
【追記】
想像以上のアクセス数があり(検索トップになったり,2chスレに貼られたり…),物凄くびっくりしていますが,少し補足しておきます.
GPGPU向きでないといっても,それは単精度浮動小数以外が大半を占める場合です.パーティクルもある意味GPGPUですし,GPGPUならGTX580やRadeon HD7970の方が上と安易に決めつけることはできません. どんなプログラムを動かすのか,そのプログラムとGK104と相性が良いか悪いかを検証する必要があります.
情報不足のため,動画再生支援の検証は行っていません. GeForce GT520(PV5搭載)は(ローエンドにも関わらず)最も再生支援能力が高く,GTX680がPV5なのか,あるいはそれ以上なのか,情報が手に入ったらまた追記したいと思います.
コメントする »
WordPress.com Blog.
Entries と コメント feeds.
コメントを残す